Introducción a las técnicas multivariantes no supervisadas
Método para reducir la dimensionalidad de los datos conservando la mayor cantidad de información. El método se debe usar cuando las variables son cuantitativas y existe presencia de correlación
Visualizar patrones: Sirve para visualizar la estructura de los datos y detectar patrones emergentes.
Construir de índices sintéticos: Las variables originales se resumen en un conjunto menor de componentes principales que contienen información de todas las variables.
Identificar factores clave: Identifica los factores principales que explican los cambios relacionados con el tema de interés.
Identificar grupos: Ayuda a identificar grupos de individuos que comparten características similares.
Reproducir la matriz original usando menos dimensiones
Enfoque de Hotelling (1933) vs Pearson (1901)
Reproducir la matriz original con menos dimensiones.
El conjunto de datos RESUMEN.sav contiene un preprocesamiento obtenido de la GEIH del DANE a nivel departamental para algunas variables de interés.
Use el comando glimpse() y skim() para explorar el conjunto de datos.
Use la función Factoshiny(datos) y ajuste los parámetros del modelo.
Explore el peso de las variables mediante la función PCA(datos) del paquete FactoMineR.
Tenga en cuenta que:
\[\mathbf{Y} = \mathbf{XV}\]
De manera que la matriz \(\mathbf{V}\) son los ponderadores de las variables en la matriz \(\mathbf{X}\), con lo cual \(\mathbf{Y}\) es un índice que resume la información contenida en las variables originales.
Mientras que el PCA se usa para tratar variables cuantitativas que tienen algún grado de asociación lineal, el análisis de correspondencias es un método que surge de las tablas de contingencia y permite estudiar las relaciones entre variables nominales. Este análisis permite:
Al realizar la operación \(\mathbf{X}^T\mathbf{X}\) se llega a la matriz que concatena todas las tablas de contingencia entre pares de variables, denominada matriz de Burt
El conjunto de datos corresp.sav contiene 50 respuestas de una encuesta.
Use glimpse() y skim() para explorar el conjunto de datos.
Use la función Factoshiny(datos) y ajuste los parámetros del modelo.
Explore la contibución y el coseno al cuadrado usando MCA(datos) del paquete FactoMineR.
Husson, F., Lê, S., & Pagès, J. (2017). Exploratory multivariate analysis by example using R. CRC press.
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2006). Multivariate data analysis 6th Edition. https://doi.org/10.1201/9780367409913
Aldás Manzano, J., & Uriel Jiménez, E. (2017). Análisis multivariante aplicado con R. Ediciones Paraninfo, SA.
Diapositivas disponibles en GitHub.